1:

Bağımsız veri setine ilişkin inceleme:

Verilerin çekilirken kaynak olarak Datacamp seçildi. İlk olarak veriler gapminder_tsv beklenen ömür değişkeni ile filtrelendi gapminder_lifeExp.

Daha sonra bu filtreler üç ülkeye Europe, Americas, Asia bölündü ki daha rahat ve temiz analiz yapabilelim.

gapminder_lifeExp <- gapminder_tsv %>%
  filter(continent %in% c("Asia", "Europe", "Americas")) %>%
  summarize(continent=continent, lifeExp=lifeExp) %>%
  arrange(desc(continent))

gp_eu <- gapminder_lifeExp %>%
  filter(continent=="Europe")

gp_usa <- gapminder_lifeExp %>%
  filter(continent=="Americas")

gp_asia <- gapminder_lifeExp %>%
  filter(continent=="Asia")
#Kitle:
head(gapminder_lifeExp)
##   continent lifeExp
## 1    Europe   55.23
## 2    Europe   59.28
## 3    Europe   64.82
## 4    Europe   66.22
## 5    Europe   67.69
## 6    Europe   68.93
#İncelenecekler:
head(gp_eu)
##   continent lifeExp
## 1    Europe   55.23
## 2    Europe   59.28
## 3    Europe   64.82
## 4    Europe   66.22
## 5    Europe   67.69
## 6    Europe   68.93
head(gp_asia)
##   continent lifeExp
## 1      Asia  28.801
## 2      Asia  30.332
## 3      Asia  31.997
## 4      Asia   34.02
## 5      Asia  36.088
## 6      Asia  38.438
head(gp_usa)
##   continent lifeExp
## 1  Americas  62.485
## 2  Americas  64.399
## 3  Americas  65.142
## 4  Americas  65.634
## 5  Americas  67.065
## 6  Americas  68.481

Örneklem çekme:

Analize başlamak üzere n=30 için 3 değişkenden de veriler rastgele çekildi ve bu örneklemler: gp_eu_samp, gp_asia_samp, gp_usa_samp olarak adlandırıldı.

as.numeric kodunu kullandık ki çektiğimiz örneklemler “character” formatında kalmasın ve analizini yapabilelim.

Tanımlayıcı istatistikler ve normallik varsayımı testi:

Özetleyici istatistikler kapsamında incelenecek her bir grup için stat.desc kodu kullanıldı.

Normallik varsayımında ise: H0: Verilerin dağılımı ile normal dağılım arasında fark yoktur. H1: Verilerin dağılımı ile normal dağılım arasında fark vardır. şeklinde iki hipotez kurulup %95 güven düzeyinde (alpha=0.05) test edildi.

Test süresince (n=30) < 50 için Shapiro Wilk testi kullanıldı. Test sonucunda ise her bir grup için p-value < 0.05 olduğundan mütevellit; “%95 güven düzeyiyle test edilecek grupların dağılımı ile normal dağılım arasında fark vardır” yorumu yapılabilir.

# Europe'a ait özetleyici istatistikler:
stat.desc(gp_eu_x$lifeExp)
##      nbr.val     nbr.null       nbr.na          min          max        range 
## 3.000000e+01 0.000000e+00 0.000000e+00 4.807900e+01 7.853000e+01 3.045100e+01 
##          sum       median         mean      SE.mean CI.mean.0.95          var 
## 2.144654e+03 7.224500e+01 7.148847e+01 1.111415e+00 2.273098e+00 3.705727e+01 
##      std.dev     coef.var 
## 6.087469e+00 8.515316e-02
#Asia'ya ait özetleyici istatistikler:
stat.desc(gp_asia_x$lifeExp)
##      nbr.val     nbr.null       nbr.na          min          max        range 
##   30.0000000    0.0000000    0.0000000   31.9970000   78.7700000   46.7730000 
##          sum       median         mean      SE.mean CI.mean.0.95          var 
## 1891.7630000   64.2300000   63.0587667    1.9170334    3.9207736  110.2505171 
##      std.dev     coef.var 
##   10.5000246    0.1665117
#Americas'a ait özetleyici istatistikler:
stat.desc(gp_usa_x$lifeExp)
##      nbr.val     nbr.null       nbr.na          min          max        range 
##   30.0000000    0.0000000    0.0000000   37.5790000   77.8600000   40.2810000 
##          sum       median         mean      SE.mean CI.mean.0.95          var 
## 2014.9420000   68.5745000   67.1647333    1.4993550    3.0665253   67.4419637 
##      std.dev     coef.var 
##    8.2123056    0.1222711
#Normallik testi:
shapiro.test(gp_eu_x$lifeExp)
## 
##  Shapiro-Wilk normality test
## 
## data:  gp_eu_x$lifeExp
## W = 0.81509, p-value = 0.000125
shapiro.test(gp_asia_x$lifeExp)
## 
##  Shapiro-Wilk normality test
## 
## data:  gp_asia_x$lifeExp
## W = 0.91877, p-value = 0.02492
shapiro.test(gp_usa_x$lifeExp)
## 
##  Shapiro-Wilk normality test
## 
## data:  gp_usa_x$lifeExp
## W = 0.83329, p-value = 0.0002825
#   p-value < alpha=0.05 için %95 güven düzeyiyle söylenebilir ki veriler ile normal dağılım arasında fark vardır.
Parametrik olmayan istatistiksel yöntemler ödevi (2)

2:

Bağımlı veri setine ilişkin inceleme:

Verilerin çekilirken kaynak olarak Datacamp seçildi. Veri setimizin açıklamasıyla başlayalım. Asıl kitlemiz, Setosa, Versicolor ve Virginica çiçek türlerinin sepal (Çanak yaprak) ve petal (Taç yaprak) verilerini içermekte idi. Biz bu verilerden Setosa çiçek türüne ait verileri kullandık.

İlk olarak veriler (iris), setosa değişkeni ile filtrelendi iris_setosa. Devamında ise petal hacmi hesaplanıp, sepal uzunluğu ve sepal kalınlığı ile incelenecek olan 3 bağımlı değişken olarak kabul edildi.

iris_setosa <- iris %>%
  filter(Species == "setosa") %>%
  summarize(sepal_width=Sepal.Width, sepal_length=Sepal.Length, petal_volume=Petal.Length*Petal.Width)
head(iris_setosa)
##   sepal_width sepal_length petal_volume
## 1         3.5          5.1         0.28
## 2         3.0          4.9         0.28
## 3         3.2          4.7         0.26
## 4         3.1          4.6         0.30
## 5         3.6          5.0         0.28
## 6         3.9          5.4         0.68

Örneklem çekme:

Veri setimizden n=30 adet örneklem çektik (setosa_samp). setosa_samp setimizin özetleyici istatistiklerini bulduk.

setosa_sepal_width_samp <- as.data.frame(list(sample(iris_setosa$sepal_width,30,replace=F)))
colnames(setosa_sepal_width_samp) <- c("sepal_width")

setosa_sepal_length_samp <- as.data.frame(list(sample(iris_setosa$sepal_length,20,replace=F)))
colnames(setosa_sepal_length_samp) <- c("sepal_length")
  
setosa_petal_Samp <- as.data.frame(list(sample(iris_setosa$petal_volume,30,replace=F)))
colnames(setosa_petal_Samp) <- c("petal_volume")

#Sepal kalınlığına ait özetleyici istatistikler:
stat.desc(setosa_sepal_width_samp)
##               sepal_width
## nbr.val       30.00000000
## nbr.null       0.00000000
## nbr.na         0.00000000
## min            3.00000000
## max            4.40000000
## range          1.40000000
## sum          105.10000000
## median         3.50000000
## mean           3.50333333
## SE.mean        0.06651995
## CI.mean.0.95   0.13604858
## var            0.13274713
## std.dev        0.36434479
## coef.var       0.10399946
#Sepal uzunluğuna ait özetleyici istatistikler:
stat.desc(setosa_sepal_length_samp)
##              sepal_length
## nbr.val       20.00000000
## nbr.null       0.00000000
## nbr.na         0.00000000
## min            4.40000000
## max            5.80000000
## range          1.40000000
## sum          101.60000000
## median         5.05000000
## mean           5.08000000
## SE.mean        0.08065521
## CI.mean.0.95   0.16881330
## var            0.13010526
## std.dev        0.36070107
## coef.var       0.07100415
#Petal hacmine ait özetleyici istatistikler:
stat.desc(setosa_petal_Samp)
##              petal_volume
## nbr.val       30.00000000
## nbr.null       0.00000000
## nbr.na         0.00000000
## min            0.14000000
## max            0.85000000
## range          0.71000000
## sum           11.00000000
## median         0.30000000
## mean           0.36666667
## SE.mean        0.03246690
## CI.mean.0.95   0.06640227
## var            0.03162299
## std.dev        0.17782854
## coef.var       0.48498692

Normallik avrsayımı testi:

verilerimizdeki örneklemler (n<50) için normallik varsayım testi yaparken Shapiro Wilk testi kullanılır. Normallik varsayımında ise: H0: verilerin dağılımı ile normal dağılım arasında fark yoktur. H1: verilerin dağılımı ile normal dağılım arasında fark vardır.

#Sepal kalınlığı verilerinin dağılım testi:
shapiro.test(sepal_width_x$sepal_width)
## 
##  Shapiro-Wilk normality test
## 
## data:  sepal_width_x$sepal_width
## W = 0.9265, p-value = 0.03966
#Sepal uzunluğu verilerinin dağılım testi:
shapiro.test(sepal_length_x$sepal_length)
## 
##  Shapiro-Wilk normality test
## 
## data:  sepal_length_x$sepal_length
## W = 0.86205, p-value = 0.008541
#Petal hacmi verilerinin dağılım testi:
shapiro.test(petal_x$petal_volume)
## 
##  Shapiro-Wilk normality test
## 
## data:  petal_x$petal_volume
## W = 0.7886, p-value = 4.092e-05

Shapiro Wilk testi sonucu p-value değerleri alpha=0.05 ile karşılaştırılarak hipotezler hakkında karar verilir:

Sepal kalınlığı verilerinin p-value değeri < alpha=0.05 olduğu için normal dağılımla uyuşmadığı %95 güven düzeyiyle söylenebilir.

Sepal uzunluğu verilerinin p-value değeri < alpha=0.05 olduğu için normal dağılımla uyuşmadığı %95 güven düzeyiyle söylenebilir.

Petal Hacmi verilerinin p-value değeri < alpha=0.05 olduğu için normal dağılımla uyuşmadığı %95 güven düzeyiyle söylenebilir.

Parametrik olmayan istatistiksel yöntemler ödevi (3)
Parametrik olmayan istatistiksel yöntemler ödevi (4)

4:

Açıklama:

Rastgele seçilen 30 ülkeden alınan beklenen ömür lifeExp değerlerine ilişkin inceleme yapıldı.

library(readxl)
library(stats)
gp_asia_x <- read_excel("C:/Users/lenovo/Documents/GitHub/Nonpar/gp_datasets/gp_asia_x.xlsx")
head(gp_asia_x)
## # A tibble: 6 x 1
##   lifeExp
##     <dbl>
## 1    63.0
## 2    69.4
## 3    74.2
## 4    55.2
## 5    32.0
## 6    60.1
gp_eu_x<- read_excel("C:/Users/lenovo/Documents/GitHub/Nonpar/gp_datasets/gp_eu_x.xlsx")
head(gp_eu_x)
## # A tibble: 6 x 1
##   lifeExp
##     <dbl>
## 1    76.1
## 2    71.3
## 3    71.4
## 4    74.6
## 5    68.8
## 6    69.7

Hipotezler ve testin uygulanması:

Asya ve Avrupa ’daki ülkelerin verileri göz önüne alındığında Avrupa’nın beklenen ömür değerinin daha düşük olduğu iddiası öne sürüldü. Bu iddianın testine ilişkin kurulan:
H0: QAvrupa = QAsya
Hs: QAvrupa < QAsya
Alpha = 0.05
için Mann Whitney Testi uygulanarak sonuçlar incelendi.

## 
##  Wilcoxon rank sum exact test
## 
## data:  gp_eu_x$lifeExp and gp_asia_x$lifeExp
## W = 701, p-value = 0.9999
## alternative hypothesis: true location shift is less than 0

Test sonucu ve yorumlama kısmı:

Mann Whitney test sonucu olarak: U değeri = 701 P değeri = 0.9999

%95 Güven düzeyiyle söylenebilir ki, p-value < alpha=0.05 için H0 reddedilir. Yani Asya ’nın beklenen ömrü Avrupa ’nın beklenen ömründen daha fazladır.

Parametrik olmayan istatistiksel yöntemler ödevi (5)

5:

Verilerin açıklaması:

Ödevimizin 2. sekmesinde elde ettiğimiz bağımlı Iris veri setinden incelemek üzere 2 değişken seçildi:
(“Sepal Uzunluğu ve Sepal Kalınlığı”)

head(sepal_length_x)
## # A tibble: 6 x 1
##   sepal_length
##          <dbl>
## 1          5.1
## 2          5.1
## 3          5  
## 4          4.9
## 5          5  
## 6          4.7
head(sepal_width_x)
## # A tibble: 6 x 1
##   sepal_width
##         <dbl>
## 1         3.9
## 2         3.2
## 3         3.4
## 4         4.1
## 5         3.5
## 6         3.2
sepal_width_y <- sepal_width_x[1:20,]

Hipotezlerin kurulması ve testin yapılması:

Bu aşamada öncekilerde de olduğu gibi hipotezlerimizi kurup bu hipotezlere ilişkin Wilcoxon Testi uygulandı:
H0: Di = 0 (Değişkenler arası fark yoktur.)
H1: Di \(\neq\) 0 (Değişkenler arası fark vardır.)
Alpha = 0.05
için “Wilcoxon işaret sıra sayıları testi” %5 yanılma düzeyiyle uygulanarak hipotezler test edildi:

## Warning in wilcox.test.default(sepal_length_x$sepal_length,
## sepal_width_y$sepal_width, : cannot compute exact p-value with ties
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  sepal_length_x$sepal_length and sepal_width_y$sepal_width
## V = 210, p-value = 9.502e-05
## alternative hypothesis: true location shift is not equal to 0

Sonuçlar ve yorumlar:

İki bağımlı örnekleme ilişkin uygulanan “Wilcoxon Testi” sonucunda elde edilen çıktılara dayanarak;
%95 Güvenle söylenebilir ki, gruplar arasında fark vardır.

Parametrik olmayan istatistiksel yöntemler ödevi (6)

6:

Verilerin açıklaması:

Ödevimizin 1. sekmesinde elde ettiğimiz bağımsız Gapminder veri setinden incelemek üzere 3 kıta seçildi ve bu kıtalar arası fark olup olmadığna bakıldı:
(Amerika, Asya ve Avrupa).

gp_group_x %>% 
  group_by(group) %>%
  get_summary_stats(lifeExp, type = "common")
## # A tibble: 3 x 11
##   group  variable     n   min   max median   iqr  mean    sd    se    ci
##   <chr>  <chr>    <dbl> <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 ASIA   lifeExp     30  32.0  78.8   64.2 10.9   63.1 10.5   1.92  3.92
## 2 EUROPE lifeExp     30  48.1  78.5   72.2  5.25  71.5  6.09  1.11  2.27
## 3 USA    lifeExp     30  37.6  77.9   68.6  5.83  67.2  8.21  1.50  3.07
ggplot(gp_group_x, aes(group, lifeExp, color= group)) + geom_boxplot()

Hipotezlerin kurulması ve testin yapılması:

Boxplot ve özetleyici istatistiklerini gördüğümüz değişkenlerimizin hipotez testleri incelendi.
Bu aşamada öncekilerde de olduğu gibi hipotezlerimizi kurup bu hipotezlere ilişkin Kruskall-Wallis Testi uygulandı:
H0: Di = 0 (Kıtalar arası fark yoktur.)
H1: Di \(\neq\) 0 (Kıtalar arası fark vardır.)
Alpha = 0.05
için “Kruskall-Wallis testi” %5 yanılma düzeyiyle uygulanarak hipotezler test edildi:

## 
##  Kruskal-Wallis rank sum test
## 
## data:  gp_group_x$lifeExp by gp_group_x$group
## Kruskal-Wallis chi-squared = 16.223, df = 2, p-value = 0.0003001

Hipotez sonuçları:

Kruskall-Wallis testinin sonucunda H0 hipotezimiz reddedildi ve kıtlar arası farklılık olduğu görüldü.
Bir sonraki analizimizde ise bu farklılığın nerden geldiğini görmek için Post-Hoc testleri uygulanacak.

gp_group_x %>%
  dunn_test(lifeExp~group, p.adjust.method = "bonferroni")
## # A tibble: 3 x 9
##   .y.     group1 group2    n1    n2 statistic         p    p.adj p.adj.signif
## * <chr>   <chr>  <chr>  <int> <int>     <dbl>     <dbl>    <dbl> <chr>       
## 1 lifeExp ASIA   EUROPE    30    30      3.98 0.0000681 0.000204 ***         
## 2 lifeExp ASIA   USA       30    30      1.47 0.141     0.423    ns          
## 3 lifeExp EUROPE USA       30    30     -2.51 0.0121    0.0362   *

Post-Hock test sonuçları:

Hipotezlerimiz Krusall-Wallis testi ile test edildi ve yorum olarak:
“%95 güvenle söylenebilir ki kıtalar arası farklılık vardır” yorumu yapıldı.
Çoklu karşılaştırma sorunlarını ortadan kaldırmak için “Bonferroni” düzeltmesi ile yaptığımız Duncann testinin sonucunda ise:
Asya ve Avrupa ………… Fark anlamlıdır
Asya ve Amerika ………… Fark anlamlı değildir
Avrupa ve Amerika ………… Fark anlamlıdır
Çıktılarını kullanarak: “Kıtalar arası farklılığın Avrupa’dan (EUROPE) dan kaynaklandığı %95 güven düzeyiyle söylenebilir.”

Parametrik olmayan istatistiksel yöntemler ödevi (6)

7:

Verilerin açıklanması ve düzenlenmesi:

Ödevimizin 2. sekmesinde elde ettiğimiz bağımlı Iris veri setinden incelemek üzere 3 değişken seçildi ve bu değişkenler arası fark olup olmadığna bakıldı:
(Sepal uzunluğu, Sepal kalınlığı ve Petal hacmi).
Iris veri setimize Friedmann uygulanabilmesi için doğru forma getirildi.

iris_setosa <- iris_setosa %>%
  gather(key = "specs", value = "value", sepal_width,sepal_length, petal_volume) %>%
  convert_as_factor(id, specs)

ggplot(iris_setosa, aes(specs, value, color= specs))+ geom_boxplot()

Hipotezlerin kurulması ve testin yapılması:

Boxplot grafiğini gördüğümüz değişkenlerimizin hipotez testleri incelendi.
Bu aşamada öncekilerde de olduğu gibi hipotezlerimizi kurup bu hipotezlere ilişkin Friedmann Testi uygulandı:
H0: Di = 0 (Değişkenler arası fark yoktur.)
H1: Di \(\neq\) 0 (Değişkenler arası fark vardır.)
Alpha = 0.05
için “Friedmann” %5 yanılma düzeyiyle uygulanarak hipotezler test edildi:

## # A tibble: 1 x 6
##   .y.       n statistic    df        p method       
## * <chr> <int>     <dbl> <dbl>    <dbl> <chr>        
## 1 value    50       100     2 1.93e-22 Friedman test

Hipotez sonuçları:

Friedmann testinin sonucunda H0 hipotezimiz reddedildi ve değişkenler arası farklılık olduğu görüldü.
Bir sonraki analizimizde ise bu farklılığın nerden geldiğini görmek için Post-Hoc testlerinden Duncan testi uygulanacak.

iris_setosa %>%
  dunn_test(value~specs, p.adjust.method = "bonferroni")
## # A tibble: 3 x 9
##   .y.   group1       group2    n1    n2 statistic        p    p.adj p.adj.signif
## * <chr> <chr>        <chr>  <int> <int>     <dbl>    <dbl>    <dbl> <chr>       
## 1 value petal_volume sepal~    50    50     11.5  1.18e-30 3.53e-30 ****        
## 2 value petal_volume sepal~    50    50      5.76 8.24e- 9 2.47e- 8 ****        
## 3 value sepal_length sepal~    50    50     -5.75 9.12e- 9 2.74e- 8 ****

Post-Hock test sonuçları:

Hipotezlerimiz Friedmann testi ile test edildi ve yorum olarak:
“%95 güvenle söylenebilir ki kıtalar arası farklılık vardır” yorumu yapıldı.
Çoklu karşılaştırma sorunlarını ortadan kaldırmak için “Bonferroni” düzeltmesi ile yaptığımız Duncann testinin sonucunda ise:
Petal hacmi ve Sepal uzunluğu ………… Fark anlamlıdır
Petal hacmi ve Sepal kalınlığı ………… Fark anlamlıdır
Sepal uzunluğu ve Sepal kalınlığı ………… Fark anlamlıdır

Çıktılarını kullanarak: “Değişkenler arası farklılığın Petal hacmi’nden (petal_volume) dan kaynaklandığı %95 güven düzeyiyle söylenebilir.”

Kaynakça:

-> Datasetinin kaynağı: Data Camp -> Verilerin işlenmesinde kullanılan kaynak: RStudio